home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / dev / www_talk.930 / 000544_timbl@www3.cern.ch _Tue Jan 12 09:24:48 1993.msg < prev    next >
Internet Message Format  |  1994-01-24  |  5KB

  1. Return-Path: <timbl@www3.cern.ch>
  2. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA20613; Tue, 12 Jan 93 09:24:48 MET
  4. Received: by dxmint.cern.ch (5.65/DEC-Ultrix/4.3)
  5.     id AA15619; Tue, 12 Jan 1993 09:39:56 +0100
  6. Received: by www3.cern.ch (NX5.67c/NX3.0S)
  7.     id AA00817; Tue, 12 Jan 93 09:39:27 +0100
  8. Date: Tue, 12 Jan 93 09:39:27 +0100
  9. From: Tim Berners-Lee <timbl@www3.cern.ch>
  10. Message-Id: <9301120839.AA00817@www3.cern.ch>
  11. Received: by NeXT.Mailer (1.87.1)
  12. Received: by NeXT Mailer (1.87.1)
  13. To: Dan Connolly <connolly@pixel.convex.com>
  14. Subject: Re: new HTML spec, sample implementation 
  15. Cc: www-talk@nxoc01.cern.ch
  16. Reply-To: timbl@nxoc01.cern.ch
  17.  
  18.  
  19. >  Date: Fri, 08 Jan 93 13:57:32 CST
  20. >  From: Dan Connolly <connolly@pixel.convex.com>
  21. >  
  22.  
  23. >  This question seems to confuse two things: the ISOlat1 entity
  24. >  set, and the ISO Latin 1 character set. The first is mapping
  25. >  of names to glyphs, and the second is a mapping from the numbers
  26. >  128-255 to glyphs. I think they're in alphabetical order
  27. >  by name, but not in order by the ISO Latin 1 character set.
  28.  
  29. I think we should specify ISO latin 1 as the base set.  I think that  
  30. a lot of people in the nordic countries use it routinely and they
  31. will go crazy if they have to use overload the crurly brackets again
  32. as they have to with mail.
  33.  
  34. Therefore, we should allow those people who have 8-bit capability to
  35. just stick in 8-bit codes.  Admitedly I thought the ISO world kept to
  36. the codes 21-7E and A1-FE hex for G0 and G1 graphics sets, using the  
  37. others for control sets (C0 and C1). Maybe ISO Lantin 1 has nothing  
  38. to do with ISO 8 bit extensions. Sorry I can't quote ISO numbers.
  39. But whatever is common usage, let us have an 8 bit set.
  40.  
  41. (Anybody illuminate us on this?  Anybody got the ISO Latin 1  
  42. character set listing by number?)
  43.  
  44. Now for died in the wool 7-bit hackers, is it fair to requier them to  
  45. remember numbers, or would it be nicer to allow them to put in
  46. codes using entity names?  Some people would I am sure like the  
  47. latter, but it is NOT important because we are aiming for wysiwyg  
  48. editors and so would regard human-readable character names as a  
  49. temporary thing anyway.
  50.  
  51.  
  52. >  Here is the crux of the matter:
  53. >  
  54.  
  55. >  >The communication between it and the text object would have to be  
  56. defined in  
  57.  
  58. >  >terms of a particular character set
  59. >  
  60.  
  61. >  And this character set is stated in the SGML declaration at
  62. >  the top of html.dtd.
  63.  
  64. No - that is something different. In the top of the DTD is specified  
  65. the reference base set for the DTD itself and SGML documents.
  66. The interface between two software modules is something else and can  
  67. be independent of that.
  68.  
  69. >  If we define HTML in terms of the
  70. >  full ISO Latin 1 character set, then the parser can deal with
  71. >  ö, and pass it to the text object as a data character, just
  72. >  like an 'A' character. For X displays using iso8559 fonts, that's
  73. >  cool.
  74.  
  75.  
  76. Sorry, is iso8559  = Iso latin 1?  (I have no head for numbers >1 :-)
  77.  
  78. yes it is cool. Use Midas or Viola to look at the Hyper-G stuff and  
  79. it works very nicely.
  80.  
  81. >  But on a PC or a Mac, that means the text object will have to
  82. >  scan all the data it gets and convert the Latin1 encoding to
  83. >  it's own. Yuck.
  84.  
  85. Yup. Big deal?  Not really. Just a set of parallel tables.  Peter  
  86. Flynn of the CURIA project is producing a lot of archived gaelic and  
  87. is currently dealing with a requirement for a line-mode browser which  
  88. can switch its characetr set depending on the terminal emulator the  
  89. reader is using.
  90.  
  91. Problems only occur if there are characters which can't be mapped 1-1  
  92. to the local set, and must be represented by more than one character  
  93. (like uumlaut -> ue, ae dipthong -> ae etc) AND you can edit, in  
  94. which case the original form must be preserved. In this case, passing  
  95. on of the entity is essential.  But doing it for every character >127  
  96. would be a pain memorywise. So I would suggest that a configuable  
  97. table define which entities can be crunched down to a single  
  98. character in the local representation and the rest be passed on from  
  99. the SGML parser to the SGML app as external entities.
  100.  
  101. >  >... and perhaps if there is more than one  
  102.  
  103. >  >contender the SGML engine could have a compilation option.
  104. >  
  105.  
  106. >  Hmmm... One might argue that as long as we support conversion  
  107. inside
  108. >  the SGML parser for EBCDIC machines, we might as well support PC  
  109. and
  110. >  Mac character sets while we're at it.
  111.  
  112. Yes.
  113.  
  114. Tim